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Abstract 


Il crescente sviluppo e adozione di strumenti di Intelligenza artificiale (Al) che si rivelano effica- 
ci nell'automatizzare parzialmente molti compiti produttivi — dal concept al rendering, dal rilievo alla 
modellazione parametrica — nel campo delle raffigurazioni progettuali [1] in ambito architettonico, 
urbanistico e del design (del prodotto e della comunicazione) ci pone oggi in varie fasi di ‘transizione 
al disegno artificiale‘ Questo contributo riguarda il modo in cui vengono integrati nella ricerca di 
base del disegno alcuni temi relativi ai sistemi di Al addestrati con tecniche di deep learning su immani 
dataset sincretici (verbali, visivi, ...) e taluni capaci di generare nuove immagini significative attraverso 
elaborazioni con reti neurali di tipo ‘Generative Adversarial Networks’ (GANs). Per usare questi sistemi 
come nuovi strumenti sensati di ‘immaginazione artificiale’ è necessaria una descrizione del loro funzio- 
namento semiotico che ne mostri limiti e possibilità effettive. E a tale scopo e in rapporto alla disciplina 
del disegno che questo contributo parte dalla proposta di riclassificare secondo le categorie della teoria 
della significazione e della retorica visiva (ai livelli plastico e iconico) esposta trent'anni fa dal Gruppo u 
[2] l'attuale insieme degli algoritmi di descrizione d'immagine usati prima nelle fasi di deep learning, poi in 
quelle di generazione creativa. Propone infine di verificare i portati della ricerca sperimentandola come 
teoria dei pattern nell'analisi delle ‘scritture asemiche' e delle declinazioni stilistiche dello spazio figurato. 
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Introduzione 


Dallo scorso 30 novembre assistiamo alla crescente attenzione mediatica sul gradimento di 
due applicazioni di Al: l'agente conversazionale ‘Chat Generative Pre-trained Transformer 
3' [ChatGPT3] e il sistema DALL-E 2 che impiega la stessa architettura a reti neurali del 
Transformer GPT ma con la funzione di generare immagini raster in risposta alle descrizioni 
(prompt) verbali formulate degli utenti. Sono questi solo due tra i numerosissimi e con- 
correnziali casi di chatbot e di generatori text-to-image (TTI) affiorati negli ultimissimi anni 
coi prodigiosi sviluppi delle tecniche di deep learning ‘supervisionato’ e ‘non supervisionato’ 
attraverso sistemi di calcolo detti ‘reti neurali' dove per ‘neuroni’ si devono intendere delle 
funzioni matematiche a moltissimi parametri aggiustabili nell'apprendimento. 
Nella sbalordiva offerta di sistemi che ormai segna la crescente pervasione dell’Al in quasi 
tutti i domini sociali — tecnici o artistici, giuridici o economici, medici o linguistico-filologici — il 
crescente clamore intorno a DALL-E 2 e ChatGPT3 si deve soprattutto agli allarmi sul loro 
impatto sociale. Entrambe prodotti dalla società OpenAl avviata dal 2016 nella iper-finan- 
ziata ricerca di punta nel campo del deep learning, questi due sistemi sono stati agevolmente 
utilizzati in poche settimane da milioni e milioni di persone. Consentono a chiunque di pro- 
durre artefatti originali e inediti (vari generi di testi, progetti tecnici, composizioni, disegni e 
raffigurazioni, programmi informatici...) indistinguibili da congeneri prodotti umani per la 
oro fluidità espressiva, discreta coerenza logica e, per ora, ‘parzialmente plausibile’ verosimi- 
glianza referenziale. 
Nonostante e per i loro evidenti limiti veridittivi, DALL-E 2 e ChatGPT3 destano preoccupa- 
zioni in ambito politico, scolastico ed estetologico. Anzitutto perché sono oggi ampiamente 
provati moltissimi casi d'uso fraudolento dell'Al in diverse campagne di disinformazione e di 
manipolazione delle opinioni attraverso la produzione di fake news e messaggi a contenuto 
pilotato (generalmente apocalittico o complottistico) automaticamente costruiti in base alla 
profilazione di moltitudini di destinatari sensibili. 
Se è dunque giusto avere timori etici, morali, epistemologici e pedagogici sull'autenticità re- 
ferenziale dei prodotti di Chat-GPT3 — giacché non è possibile tracciare la provenienza delle 
informazioni che essi recano — è invece discutibile il timore per la loro ‘autenticità autoriale’ 
ed è assurdo vedervi un imminente predominio delle macchine o una progressiva esautora- 
zione della creatività umana. 
Si deve certo constatare che, nei casi in cui la valutazione (giornalistica, scolastica o estetica) 
di un'opera sia legata al principio di autorialità, autenticità e autografia, non tutte queste con- 
dizioni possono essere verificate nel caso di opere d'arte o di referti tecnici che si producono 
semplicemente scrivendo un prompt testuale o settando un insieme di parametri nell'’inter- 
faccia di applicazioni Al. Ma, ciò detto, non c'è alcuna ragione accettabile in pregiudizio per cui 
un'opera d'arte non possa essere prodotta attraverso strumenti di Al. Ogni sistema di Al è 
solo uno strumento eterodiretto da attori e fattori umani, non ha certo una propria coscien- 
za della significazione che i suoi prodotti assumono per i suoi destinatori umani; dunque, non 
ha una propria intenzionalità semiotica, politica, artistica, estetica o epistemologica che sia. 
Oltre all'uso fraudolento dell'Al, è bene superare anche il suo impiego sprovveduto, inconsa- 
pevole o mitizzato, superando almeno due opposte (soggettivistica/oggettivistica) credenze 
insensate e dannose: 

- l'ideale dell'originalità dell'opera e dell'ideatore sostenuto da sprovveduti convinti che la 
storia del mondo cominci da loro stessi o da qualche genio d'occasione — cioè si produca in 
interiorità individuali — e rifiutano l’idea che “il linguaggio’, ‘il sentimento’, ‘il pensiero’, ‘l'incon- 
scio’, ‘l'atmosfera’ ..., in realtà, esistono fuori di nol; 

- l'identificazione del ‘modello’ informatico (di linguaggio naturale) con il ‘fenomeno reale dei 
inguaggi’, come se l'informatica fosse una scienza naturale tenuta a adeguare le sue teorie ai 
fenomeni naturali a scala umana. 

n realtà, i modelli non equivalgono alla realtà che modellizzano. Le analogie tra modelli ar- 
tificiali e naturalistici, quando e dove esistono, sono necessariamente parziali e strumentali 
rispetto a fini pratici assunti sperimentalmente caso per caso. Anche per questo fatto, grazie 
all’Al, possiamo definire scientificamente aspetti dell’intelligenza naturale. 
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Nel nostro caso è utile sapere che GPT è anzitutto un Modello artificiale di Lingua Naturale 
basato su una semplice semantica distribuzionale. Detto altrimenti: ciò che noi chiamiamo il 
‘significato’ di un lessema di una lingua naturale, nel modello GPT non è altro che l'insieme 
il vettore) delle misure della distanza di quel lessema dalle altre parole e parti di parole ri- 
correnti con lui in un dato corpus di testi analizzato in fase di deep learning. Il ‘significato’ del 
essema per il sistema è dunque solo un'ennupla di numeri reali: dei pesi statistico-probabilisti 
registrati nella rete neurale che compone il modello), cioè, numeri che misurano la proba- 
bilità condizionale dei diversi contesti in cui il termine ricorre. 

Quindi, quelle che noi cogliamo come ‘inferenze semantiche di analogie categoriali’ tra termi- 
ni — per es. ‘A sta a B come C sta a D'— per il sistema è un'operazione di inter-definizione tra 
termini fatta semplicemente con somme e sottrazioni tra i rispettivi vettori: per es. definisce 
D come C — A + B [Mikolov, Chen, Corrado, Dean 2013]. 

| fluente funzionamento di GPT avviene dunque tutto in termini di statistica predittiva, cioè, 
a partire dai contesti testuali implicati nel prompt di richiesta. GPT, riconoscendo quei con- 
testi, fornisce la risposta di più alta probabilità condizionale concatenando previsioni di qual 
è il termine successivo più probabile che segue nel completamento di una frase o di un altro 
tipo di catena sintagmatica. In questo compito il modello GPT-3 è sbalorditivamente efficien- 
te grazie all'architettura Transformer e anche grazie a un ulteriore addestramento della sua 
rete neurale supervisionato da masse di interlocutori umani. Tuttavia, i presupposti di questa 
fenomenale riuscita performativa di GPT-3 risiedono già nel suo deep learning non supervisio- 
nato, soprattutto nel numero di parametri ‘circa |75 miliardi della sua rete neurale, nonché 
nelle dimensioni fantasmagoriche dei corpora testuali — fonti Internet, siti web, articoli, libri, 
conversazioni e altro non reso pubblico da OpenAl — dei quali GPT ha rilevato la semantica 
distribuzionale. 


L'informazione dal visivo al verbale (morfogenesi/eidogenesi) 


Il fenomeno del ‘disegno artificiale’ riguarda anzitutto l'avvento di applicazioni che — con tec- 
niche di deep learning nutrite di immani corpora di immagini — imparano a rispondere a input 
formulabili in varie sostanze espressive (visive e verbali) classificando nuovi corpora di imma- 
gini e parti di immagine, nonché capaci di generare immagini inedite e adeguate al prompt 
fornito. In tutti questi casi l'Al delle immagini passa a una semantica molto più densa di quella 
verbale; ma ciò che noi chiamiamo ‘significato’ per il sistema di Al — come osservato prima 
per GPT — ha solo un formato numerico vettoriale ch'esso estrae da immagini che recepisce 
come matrici (tabelle di numeri). 
In questo senso | primi esempi di ‘disegno artificiale’ nello scorso decennio hanno fatto leva 
su sistemi di pattern recognition, come quelli oggi sempre più impiegati nella diagnostica me- 
dica tramite immagini e specialmente nell'istopatologia e in radiologia, ma utilizzandoli per 
fornire strumenti di expertise visuale anche nei domini dell'arte e del design. Prima che a 
produrre clamorosamente false opere d'arte e fittizi oggetti d'autore sulla base di specifici 
corpora di esempi, queste applicazioni sono servite a scoprire veri casi di ‘falsi’ fornendo un 
insostituibile expertise attributivo [Shamir 2015; Manovich e Arielli 2022; Gay 2022]. 
| panorama degli attuali sistemi di generazione di nuove immagini è molto variegato; tuttavia, 
tutti implicano processi di estrazione di caratteristiche delle immagini. È in questo campo che 
è avvenuta una svolta con l'uso generalizzato delle tecniche del deep learning, verso il 2012. 
Fino a dieci anni fa, per circa mezzo secolo, i sistemi di riconoscimento di forme in computer 
vision erano composti da due blocchi distinti dei software programmati a mano e funzionanti 
‘a priori’. Il primo blocco ‘estrae’ una serie di caratteristiche (feature) di informazione visiva 
dalle matrici-immagine e registra per ciascuna | componenti di un vettore come valori che 
esprimono la presenza o l'assenza di una data caratteristica. Il secondo blocco classifica cia- 
scuno di quei vettori come appartenente o no a date categorie in base alla soglia cui giunge 
a somma dei suoi valori moltiplicati per una serie di prestabiliti pesi statistici. 

Da quando la scrittura dei classificatori è fatta automaticamente dal processo di deep learning, 
quei pesi statistici (componenti i blocchi di classificazione) in anticipo sono fissati a caso, ma 
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Fig. |. Schema di una 
rete di convoluzione 

nel processo di 
riconoscimento entro 
un'immagine data della 
raffigurazione di una 
‘barca. <https://www. 
ahmedbesbes.com/blog/ 
introduction-to-cnns>. 


sono continuamente ri-adeguati durante il processo di apprendimento. Classificatori e ana- 
lizzatori sono diventati così dei moduli di calcolo componibili, corrispondenti ciascuno a una 
tappa dell'analisi. Ad ogni nuova immagine analizzata l'insieme di tutti i parametri si ristruttura 
modificando i pesi di tutti i descrittori. 

Potremmo dire che (paradossalmente) ‘la regola' del sistema è ora l'integrale delle sue ec- 
cezioni riuscite, giacché nel caso del deep learning è il processo diviene sistema, estraendo 
caratteristiche rilevanti solo dal corpus di immagini esemplari che gli sono fornite. Questo 
comportamento che diciamo ‘intelligente’ risiede solo nella capacità di estrazione di informa- 
zione compiuta tramite algoritmi di descrizione (rilievi statistici sulla matrice-immagine) in un 
sistema a reti neurali convoluzionali (CNN) (fig. 1) seguendo una progressione ricorsiva di 
fasi d'analisi, con retrazione su tutti i blocchi del sistema. 


Convolution Pooling Convolution Pooling Fully Fully Output Predictions 
Connected Connected 


Mid-Level 
Feature Ji 


Tali fasi che riguardano caratteristiche che in informatica si dicono di ‘livello basso’, ‘medio’ e 
‘alto’, in termini di semiotica delle immagini vanno da un ‘livello plastico’ (astratto) a un ‘livello 
iconico' (figurativo). 
- AI livello che si dice ‘più basso’ il sistema estrae statisticamente caratteristiche semiotiche 
di quattro tipi: 

- topologiche (orientamenti, inglobamenti, posizionamenti, mereologie del campo e valori 

di categorie dicotomiche come: singolare/plurale, aperto/chiuso, ascendente/discendente, 

alto/basso, centrale/periferico, verticale/orizzontale), 

- cromatiche (dominanze, contrasti di tinte, di toni, di luminanza e di saturazione, palette 

di tinta, ...), 

- eidetiche (forme e dimensioni di contorni e di andamenti, categorie come curvilineo/ 

rettilineo, angolato/incrociato, continuo/segmentato, simmetrico/asimmetrico) e 

- testurali (elementi dei pattern, loro gradienti o altre modalità di variazione, ...), 
come se adottasse un criterio estetico purovisibilista, ma che preferiamo chiamare ‘morfogenetico. 
- AI livello più alto il sistema estrae le caratteristiche semiotiche relative al riconoscimento 
di oggetti e ambienti raffigurati, nonché di stili raffigurativi, come se assumesse un criterio 
iconografico e iconologico, ma che noi preferiamo chiamare ‘eidogenetico. L'addestramento 
in deep learning al riconoscimento di categorie iconiche avviene vagliando migliaia o milioni di 
immagini esemplari già etichettate testualmente, fin che il sistema risulta in grado di generaliz- 
zare il processo di riconoscimento classificando nello stesso modo esemplari mai visti prima. 
Per ‘immaginazione artificiale’ s'intendono principalmente i numerosissimi sistemi TTI (text- 
to-image) come DALL-E 2, MidJourney, Stable Diffusion, ... che generano nuove immagini 
inedite in risposta all’input di una descrizione verbale. Si tratta di sistemi ovviamente parassitari 
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Fig. 2. Classificazione 

dei modi di generazione 
di figure nel caso della 
retorica visuale riferita 

ai ‘tipi’ ‘iconici’ e ‘plastici’ 
(astratti) presentati o 
rappresentati in immagine. 
Schemi dedotti dall'autore 
da Groupe pt 1992, e 
sviluppati in Gay 2020. 


di un dato modello di Lingua Naturale (come GPT) ma istruiti in deep learning su data set di 
immagini ancora più estesi dei loro correlati dataset verbali. Nell'addestramento di DALL-E 
2, per es., il data set acquisito ammonta a circa 300 miliardi di pixel (circa 4,7 milioni di 
immagini se risolute a 8000x8000 pixel) estratti da corpora di svariata provenienza, compresi 
data set di immagini gia correlate a descrizioni testuali come, per es. ‘Microsoft COCO! 
Usando un modello di rete neurale, questi sistemi TTI possono creare infinite esemplifica- 
zioni visive in risposta a una medesima frase verbale, a prescindere dal fatto che la frase sia 
da noi intesa in senso denotativo letterale, in senso connotativo, in senso retorico o poetico. 
Perciò la possibilità che un sistema TTI esplori la dimensione retorica dell'immagine iconica 
dipende solo dal fatto che esso generalizza e moltiplica il processo di creazione allegorica ben 
oltre i limiti dei codici verbo-visuali dell'allegoria, dell'iconografia e dell'iconologia tradizionali. 
Con opportune strategie di scrittura dei prompt di richiesta — giacché ogni sistema TTI re- 
agisce diversamente alle stesse frasi — è possibile ottenere immagini interpretabili con figure 
retoriche molto più complesse dell'allegoria. Ciò è possibile perché molti sistemi TTI non si 
limitano a mettere in scena raffigurazioni stereotipe di oggetti renderizzati coerentemente 
con una certa struttura dello spazio ambiente figurato (in modo fotorealistico oppure in altre 
forme e stili raffigurativi), sono anche in grado di produrre raffigurazioni di oggetti e ambienti 
ibridi — che in ogni parte si rivelano occorrenze in praesentia di differenti tipi cognitivi — oppu- 
re oggetti e ambienti alterati in modo che l'immagine prodotta possa evocare — in absentia e 
secondo tropi retorici — ben altre categorie oggettuali e ambientali (fig. 2). 
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E probabile che tra meno di un anno o due strumenti TTI saranno integrati anche nei più 
diffusi programmi di grafica (come Photoshop). Chiunque potrà produrre immagini di arte- 
fatti indistinguibili da immagini di opere fatte con tecniche tradizionali; potrà deciderne lo sta- 
tuto raffigurativo dell'immagine (ex. fumetto di Moebius, rendering fotorealistico da rivista 
AD, pubblicità surreale dello yogurt Müller, pittura di Max Ernst...) scegliendo semplicemen- 
te il corpus di addestramento del deep learning. Potrà altresì completare coerentemente per 
via automatica immagini o composizioni inizialmente tracciate a mano: per esempio, potrà 
proseguire automaticamente un autoritratto a penna di Rembrandt o — passando a una di- 
mensione intermodale dei pattern — concludere un'incompiuta messa da Requiem di Mozart. 
Infine, dal panorama di quest'incipiente democratizzazione delle tecniche artistiche e di desi- 
gn, possiamo constatare che è proprio attraverso le immagini generate dall’Al che possiamo 
davvero imparare molto sulla nostra attuale cultura visuale e sul modo in cui oggi sono rece- 
piti artefatti visuali di vario genere. Infatti, anche i sistemi digitali di profilazione e tracciamento 
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Fig. 3. Rielaborazione della 
tabella 10x10 nella quale 
Jaakko Seppälä raffigura la 
combinatoria tra i modelli 
di dieci personaggi dei 
fumetti e le correlative 10 
modalità di stilizzazione 
che li caratterizzano. In 
ogni colonna si trovano le 
occorrenze di uno stesso 
personaggio dei comics; 

In ciascuna riga si trovano 
le interpretazioni dei 10 
personaggi nello stile di 
uno dei disegnatori. Gli 
stili dei disegnatori (e 
personaggi) incolonnati, 
dall'alto in basso, sono: |) 
Albert Uderzo, Astérix; 

2) Bill Watterson, Calvin; 
3) Carl Barks, Donald 
Duck; 4) Hergé, Capitan 
Haddock; 5) Jim Aparo, 
Batman; 6) Pertti Jarla, 
Heimo Vesa; 7) Hugo 
Pratt, Corto Maltese; 8) 
Tove Jansson, Mumin, 9) 
Jim Davis, Garfield; 10) 
Charles Schulz, Lucy. 


del comportamento e delle preferenze personali sono strumenti di Al che oggi possono essere 
usati per scopi non commerciali, ma storico-critici, antropologici, etnografici, per rilevare e 
misurare statisticamente l'affiorare di nuove categorie estetiche e sociali, di nuove forme d'uso. 


Conclusioni 


Quanto esposto fin qui mostra che, avendo almeno un'idea elementare (e fondata) del fun- 
zionamento di strumenti di Al per l’analisi e la generazione di artefatti visuali, l'uso consa- 
pevole di questi strumenti può gettare nuova luce sul funzionamento semiotico degli stessi 
artefatti visuali e — come interessa alla disciplina scientifica del disegno — sul loro eventuale 
impiego per ideare o generare altri artefatti. 
Abbiamo evidenziato Il funzionamento di questi strumenti di intellezione delle forme e degli 
stili nelle immagini in termini analoghi alla dualità fenomenologica presente in ogni raffigu- 
razione visiva [Spinicci 2008] tra due rationes o due dimensioni dell'analisi: quella ‘plastica’ 
(astratta e morfogenetica) e quella ‘iconica’ (figurativa o eidogenetica), senza porle a priori 
una denotativa e l'altra connotativa. 

Esemplificando banalmente questa dualità con la matrice 10x10 in cui il fumettista finlandese 


Jaakko Seppälä (fig. 3) dispone versioni grafico-pittoriche di dieci celebri personaggi dei fu- 


metti declinandole anche nei corrispettivi dieci formati stilistici, ci possiamo figurare anche il 
modo in cui un sistema Al può ‘leggere’ e ‘inventare’ forme: in questo caso le righe esplicano 
la dimensione ‘plastica’ e le colonne la dimensione ‘iconica. 


Fig. 4. Esercizio di 
variazioni icono-plastiche 
dei caratteri alfabetici di 
alcuni font: in colonna 
sono poste le versioni di 
una stessa lettera (tratti 
denotativi); in riga sono 
poste le variazioni dei 
tratti connotativi delle 
lettere, ciascuna espressa 
nei modi plastici di una 
sola delle altre lettere. 
Grafico dell'autore. 


- Dicendo che un sistema Al ‘legge’, affermiamo che esso correla almeno due sistemi diversi 
di forme del piano dell'espressione, cioè, almeno due specifiche ‘griglie di lettura’ ciascuna del- 
le quali ha un proprio piano del contenuto, e lo fa in modo che una stessa unità significante sia 
sempre riferibile a più di due diverse griglie di lettura delle forme del piano dell'espressione. È 
perciò che il sistema in deep learning in grado di ‘leggere’ anche una ‘scrittura asemica’, come 
quella del Codex seraphinianus (fig. 4), o un quadro o un film ‘astratto’, o un brano musicale. 
‘Leggere’, qui, vuol dire anzitutto segmentare un oggetto in unità significanti — segni e figure 
entro un testo iscritto in un oggetto — decidendo quali tratti espressivi siano pertinenti a una o 
più griglie di lettura che ne individuano di volta in volta le effettive forme (espressive) in gioco. 
Anche volendo usare il termine ‘leggere’ in senso stretto, si consideri il fatto che la scrittura ‘al- 
fabetica occidentale’ (latinica) è solo una tra le tante forme di scrittura dipendenti dalle lingue 
naturali, (fig. 5) e ne verranno altrettante d'ancora impensate. 
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Fig. 5. Classificazione 
linguistica dei principali 
tipi di sistemi di scrittura. 
Sampson 1998, p. 32. 
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FEATURAL a 
Dicendo che un sistema Al ‘inventa’ immagini, affermiamo che esso attua un nesso che noi 
leggiamo come una ‘traduzione stilistica’ in modi simili a quelli in cui Seppälä (fig. 3) costruisce 
una nitida confusione tra mondi fumettistici diversi, talora ibridandoli, talaltra parodizzando- 
ne uno nell'altro. 
‘L'invenzione come trasduzione’, specialmente la ‘trasduzione (naturale e artificiale) tra raf- 
figurazioni e tra stili di raffigurazione’, è questione che troviamo al crocevia degli apporti 
dell’Al al disegno. Uno dei temi tradizionali del disegno è la ‘traduzione tra forme di rappre- 
sentazione visuale’, perlomeno ridotta a quei minimi termini consentiti dalla ‘restituzione 
prospettica’ (fig. 6): pratica che cerca d'individuare geometricamente il punto di vista decetti- 
vo di una prospettiva per restituire un modello 3D dello spazio che vi è figurato. 

In storia dell'arte ci sono evidenti limiti all'applicazione della restituzione prospettica. Ogni 
artefatto visuale a uso estetico — per essere tale — mantiene un'autonomia dello spazio in 
esso figurato rispetto allo spazio visivo empirico ambientale nel quale è verosimilmente po- 
sto lo spettatore reale; a meno che non si ricada nelle situazioni decettive del trompe-l'oeil 
e della ‘realtà virtuale' dove (patologicamente) non si può distinguere tra la percezione del 
proprio ambiente [3] da quella dello spazio raffigurato. Lo spazio raffigurato è un prodotto 
estetico, è immagine di un luogo declinata in una morfologia ‘non generica. Ovviamente non 
sembra aver senso fare restituzioni prospettiche di immagini iscritte in tradizioni figurative 
pre e anti-prospettiche. Nei casi non prospettici le varie parti dell'immagine suscitano il senso 
di luoghi diversamente deputati a mostrare aspetti di uno spazio che sembra aver natura ge- 
ometricamente topologica e psicologicamente topografica; ma non in tutte le culture visuali 
e loro fasi. 

Allora la pretesa ‘restituzione spaziale’ può (più onestamente) configurassi come l'invenzione 
documentata di una genealogia di tratti di oggetti e ambienti del mondo noti a-priori agli spet- 
tatori originari. Il ‘miglior modello spaziale’ emergerebbe in un processo top-down (template 
matching) che massimizza la probabilità condizionale di rispondere alle categorie morfologi- 
che a-priori rispondenti alle figure riconosciute nell'immagine. 


| cui grafemi formano unità I cui grafemi formano unità 
corrispondenti alle sillabe | corrispondenti alle consonanti 


SILLABICHE QUASI SILLABICHE 


I cui grafemi formano unità 
corrispondenti ai caratteri 


ALFABETICHE 


Note 


[1] Tra i molti riferimenti sulle applicazioni dell'A ai campi della progettazione ci riferiamo specialmente a Chaillou 202 1; Abioye 
et al. 2021; Castro Pena et al. 2021; As, Basu 2021; Seo, Park, Choo 2020. 


[2] Ci riferiamo al classico [Groupe u 1992] e alla distinzione tra livello plastico e iconico dell'analisi semiotica delle immagini 
aperta con il saggio seminale. Greimas 1984. 


[3] Ci riferiamo alla distinzione tra percezione ecologica dell'ambiente e percezione di raffigurazioni sostenuta da J. Gibson 
[Gibson 1979] del quale accettiamo integralmente le conclusioni. 
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Fig. 6. Restituzioni 
prospettiche dello spazio 
raffigurato della Pala di 
San Zaccaria, Madonna in 
trono con Bambino e Santi 
di Giovanni Bellini, 1505, 
(402x273 cm), chiesa di 
San Zaccaria, Venezia. 
Elaborazione grafica di 
Fabrizio Gay. 
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Transitions to Artificial Drawing 


Fabrizio Gay 


Abstract 


The increasing development and adoption of Artificial Intelligence (Al) tools that prove to be effective 
in partially automating many productive tasks — from concept to rendering, from surveying to parame- 
tric modelling — in the field of design representations [1] and concerning the domains of architecture, 
urban planning and (product and communication) design, now places us in various stages of ‘transition 
to artificial drawing. This contribution deals with the way in which some topics related to Al systems 
trained with deep learning techniques on immense syncretic (verbal, visual, ...) datasets and, in some 
cases, capable of generating new meaningful images through elaborations with neural networks such 
as the ‘Generative Adversarial Networks’ (GANSs), are integrated into basic drawing research. In order 
to use these systems as new sensible tools of ‘artificial imagination’, a description of their semiotic fun- 
ctioning that shows their actual limits and possibilities is required. It is for this purpose, and in relation 
to the discipline of drawing, that this contribution starts from the proposal to reclassify according to 
the categories of the theory of signification and visual rhetoric (at the plastic and iconic levels), set out 
thirty years ago by Groupe yu [2], the current set of image description algorithms used first in the deep 
learning phases, then in those of creative generation. Finally, it proposes to verify the results of the rese- 
arch by experimenting it as a pattern theory in the analysis of ‘asemic writings’ and stylistic declinations 
of figurative space. 


Keywords 
Artificial Imagination, Image Analysis, Image Theory, Drawing, Deep Learning 
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Introduction 


Since last November 30 we have witnessed the growing media attention on the approval 
of two Al applications: the conversational agent ‘Chat Generative Pre-trained Transformer 
3' (ChatGPT3) and the DALL-E 2 system which uses the same neural network architecture 
as the Transformer GPT but with the function of generating raster images in response to 
verbal descriptions (prompts) formulated by users. These are just two of the very numerous 
and competitive cases of chatbots and text-to-image generators (TTI) that have surfaced in 
the last few years with the prodigious developments of ‘supervised’ and ‘unsupervised’ deep 
learning techniques through computing systems called ‘neural networks’ where by ‘neurons’ 
we mean mathematical functions with many parameters that can be adjusted in learning. 

In the astounding range of systems that now marks the growing pervasion of Al in almost all 
social domains — technical or artistic, legal or economic, medical or linguistic-philological — the 
growing clamor around DALL-E 2 and ChatGPT3 is mainly due to alarms about their social 
impact. Both produced by the OpenAl company launched in 2016 in hyper-funded leading 
research in the field of deep learning, these two systems have been easily used in a few weeks 
by millions and millions of people. They allow anyone to produce original and unpublished ar- 
tifacts (various kinds of texts, technical projects, compositions, drawings and representations, 
computer programs ...) indistinguishable from similar human products due to their expressive 
fluidity, discrete logical coherence and, for now, ‘partially plausible’ referential likelihood. 
Despite and due to their evident truthfulness limits, DALL-E 2 and ChatGPT3 arouse con- 
cerns in political, scholastic and aesthetological terms. First of all because many cases of fraud- 
ulent use of Al are widely proven today in various campaigns of disinformation and manipula- 
tion of opinions through the production of fake news and messages with controlled content 
generally apocalyptic or based on conspiracy) automatically constructed on the basis of the 
profiling of multitudes of sensitive recipients. 

f it is therefore right to have ethical, moral, epistemological and pedagogical fears about the 
referential authenticity of the Chat-GPT3 products — since it is not possible to trace the origin 
of the information they carry — the fear for their ‘authorial authenticity’ is, on the contrary, 
questionable and it is absurd to see an imminent dominance of machines or a progressive 
exhaustion of human creativity. 

lt must certainly be noted that, in cases where the evaluation (journalistic, scholastic or aes- 
thetic) of a work is linked to the principle of authorship, authenticity and autography, not all of 
these conditions can be verified in the case of works of art or technical reports that are pro- 
duced simply by writing a text prompt or by setting a set of parameters in the Al application 
interface. But, that said, there is no prejudicial acceptable reason according to which a work 
of art cannot be produced through Al tools. Each Al system is only a tool other-directed by 
human actors and factors, it certainly does not have its own awareness of the meaning that 
its products assume for its human recipients; therefore, it does not have its own semiotic, 
political, artistic, aesthetic or epistemological intentionality. 

In addition to the fraudulent use of All, it is also good to overcome its inexperienced, unaware 
or mythicized use, overcoming at least two opposing (subjectivist-objectivist) senseless and 
harmful beliefs: 

- the ideal of the originality of the work and of the creator supported by naive people 
convinced that the history of the world begins with themselves or with some occasional 
genius — that is, it is produced in individual interiorities — and who reject the idea that ‘the 
language’, ‘the feeling’, ‘the thought’, ‘the unconscious’, ‘the atmosphere’ ..., in reality, exist 
outside of us; 

- the identification of the computer ‘model’ (of natural language) with the ‘real phenomenon 
of languages’, as if computer science were a natural science required to adapt its theories to 
natural phenomena on a human scale. 

In reality, models are not reality. The analogies between artificial and naturalistic models, when 
and where they exist, are necessarily partial and instrumental with respect to practical ends 
assumed experimentally on a case-by-case basis. Also for this fact, thanks to Al, we can scien- 
tifically define aspects of natural intelligence. 
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In our case it is useful to know that GPT is above all an artificial Natural Language Model 
based on a simple distributional semantics. In other words: what we call the ‘meaning’ of a 
lexeme of a natural language, in the GPT model is nothing more than the set (the vector) 
of the measures of the distance of that lexeme from the other words and parts of words 
recurring with it in a given corpus of texts analyzed in the deep learning phase. The ‘meaning’ 
of the lexeme for the system is therefore only a multitude of real numbers: statistical-prob- 
abilist weights (recorded in the neural network that makes up the model), that is, numbers 
that measure the conditional probability of the different contexts in which the term recurs. 
What we grasp as ‘semantic inferences of categorical analogies’ between terms — e.g. A is to 
Bas C is to D'— for the system it is an inter-definition operation between terms simply done 
with additions and subtractions between the respective vectors: for ex. defines Das C— A + B 
[Mikolov, Chen, Corrado, Dean 2013]. 
Therefore, the fluent functioning of GPT takes place all in terms of predictive statistics, 
that is, starting from the textual contexts implied in the request prompt. GPT, recognizing 
those contexts, provides the answer with theof highest conditional probability by chaining 
predictions of what is the next most likely term following in the completion of a sentence or 
other type of syntagmatic chain. In this task the GPT-3 model is astonishingly efficient thanks 
to the Transformer architecture and also thanks to further training of its neural network 
supervised by masses of human interlocutors. However, the assumptions of this phenom- 
enal performative success of GPT-3 already reside in its unsupervised deep learning, above 
all in the number of parameters (about |75 billion) of its neural network, as well as in the 
phantasmagorical size of textual corpora — Internet sources, websites, articles, books, con- 
versations and other things not made public by OpenAl — of which GPT has detected the 
distributional semantics. 


Information from visual to verbal (morphogenesis/eidogenesis) 


The phenomenon of ‘artificial drawing’ concerns above all the advent of applications which 
— with deep learning techniques nourished by huge corpora of images — learn to respond to 
inputs that can be formulated in various (visual and verbal) expressive substances by classify- 
ing new corpora of images and parts of image, as well as capable of generating unpublished 
images and adequate to the prompt provided. In all these cases the Al of the images switches 
to a much denser semantics than the verbal one; but what we call ‘meaning’ for the Al system 
— as noted above for GPT — has only a vector number format that it extracts from images 
that it receives as matrices (tables of numbers). 
In this sense, the first examples of ‘artificial drawing’ in the last decade have relied on pattern 
recognition systems, such as those increasingly used today in medical diagnostics through 
images and especially in histopathology and radiology, but using them to provide tools of 
expertise also in the domains of art and design. Before producing blatantly false works of art 
and fictitious author's objects based on specific corpora of examples, these applications have 
served to discover real cases of ‘fakes’ by providing an irreplaceable attributive expertise 
[Shamir 2015; Manovich, Arielli 2022; Gay 2022]. 

The panorama of current systems for generating new images is very varied; however, all 
involve image feature extraction processes. It is in this field that a turning point took place 
with the generalized use of deep learning techniques, around 2012. Until ten years ago, for 
about half a century, computer vision pattern recognition systems were composed of two 
distinct blocks of software programmed by hand and running a priori. The first block ‘ex- 
tracts’ a series of visual information features from the image-matrixes and records for each 
the components of a vector as values expressing the presence or absence of a given feature. 
The second block classifies each of those vectors as belonging or not to given categories on 
the basis of the threshold reached by the sum of its values multiplied by a series of pre-es- 
tablished statistical weights. 

From the time when the writing of the classifiers is done automatically by the deep learn- 
ing process, those statistical weights (components of the classification blocks) are fixed at 
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Fig. |. Scheme of a 
convolution network in 
the recognition process 
within a given image 

of the depiction of a 
‘boat’ <https://www. 
ahmedbesbes.com/blog/ 
introduction-to-cnns>. 


random in advance, but are continuously re-adjusted during the learning process. Classifiers 
and analyzers have thus become modular (or: composable) calculation modules, each corre- 
sponding to a stage of the analysis. With each new image analyzed, the set of all the param- 
eters is restructured by modifying the weights of all the descriptors. 

We could say that (paradoxically) ‘the rule’ of the system is now the integral of its successful 
exceptions, since in the case of deep learning the process becomes the system, extracting 
relevant characteristics only from the corpus of exemplary images that are provided to it. 
This so-called ‘intelligent’ behavior resides only in the ability to extract information per- 
formed through description algorithms (statistical surveys on the image-matrix) in a convo- 
lutional neural network system (CNN) (fig. 1) following a recursive progression of analysis 
phases, with retraction on all system blocks. 


Convolution Pooling Convolution Pooling Fully Fully Output Predictions 
Connected Connected 


Mid-Level 
Feature ys 


These stages, which involve features that in computer science are called ‘low’, ‘medium’ and 
‘high’ level, in terms of image semiotics range from a ‘plastic level’ (abstract) to an ‘iconic 
level’ (figurative). 
- At the so-called ‘lowest’ level, the system statistically extracts semiotic characteristics of 
four types: 
- topological (orientations, incorporations, positionings, mereologies of the field and val- 
ues of dichotomous categories such as: singular/plural, open/closed, ascending/descend- 
ing, top/bottom, central/peripheral, vertical/horizontal), 
- chromatic (dominance, contrasts of hues, tones, luminance and saturation, color 
palette, ...), 
- eidetic (shapes and dimensions of outlines and trends, categories such as curved/straight, 
angled/crossed, continuous/segmented, symmetrical/asymmetrical.) and 
- textural (pattern elements, their gradients or other modes of variation, ...), 
as if it adopted a purevisibilist aesthetic criterion, even though we prefer to call it ‘morphogenetic’ 
- At the highest level, the system extracts the semiotic characteristics relating to the recog- 
nition of depicted objects and environments, as well as of representational styles, as if it as- 
sumed an iconographical and iconological criterion, but which we prefer to call ‘eidogenetic’ 
Deep learning training in the recognition of iconic categories takes place by sifting thousands 
or millions of exemplary images already labeled textually, until the system is able to generalize 
the recognition process by classifying in the same way never seen before specimens. 
By ‘artificial imagination’ we mainly mean the very numerous TTI (text-to-image) systems 
such as DALL-E 2, MidJourney, Stable Diffusion, ... which generate new unpublished images in 
response to the input of a verbal description. These are obviously parasitic systems of a given 
Natural Language model (such as GPT) but trained in deep learning on image datasets even 
more extensive than their correlated verbal datasets. In DALL-E 2 training, for example, the 
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Fig. 2. Classification of 
the ways of generating 
figures in the case of 
visual rhetoric referring 
to the ‘iconic’ and 

‘plastic’ (abstract) ‘types’ 
presented or represented 
In images. Schemas 
deduced by the author 
from Groupe p 1992, and 
developed in Gay 2020. 


acquired data set amounts to about 300 billion pixels (about 4.7 million images at a resolution 
of 8000x8000 pixels) extracted from corpora of various origins, including image data sets 
already related to text descriptions such as, e.g. ‘Microsoft COCO" 

Using a neural network model, these TTI systems can create infinite visual exemplifications in 
response to the same verbal phrase, regardless of whether the phrase is understood by us in 
a literal denotative sense, in a connotative sense, in a rhetorical or poetic sense. Therefore, 
the possibility that a TTI system explores the rhetorical dimension of the iconic image de- 
pends only on the fact that it generalizes and multiplies the process of allegorical creation far 
beyond the limits of the verbal-visual codes of traditional allegory, iconography and iconology. 
With appropriate writing strategies of the request prompts — since each TTI system reacts 
differently to the same sentences — it is possible to obtain images that can be interpreted 
with much more complex rhetorical figures than allegory. This is possible because many 
TTI systems are not limited to staging stereotypical representations of objects rendered 
coherently with a certain structure of the figured ambient space (in a photorealistic way or 
in other representational forms and styles), they are also able to produce representations 
of objects and hybrid environments — which in every part prove to be occurrences in prae- 
sentia of different cognitive types — or objects and environments altered so that the image 
produced can evoke — in absentia and according to rhetorical tropes — quite other object and 
environmental categories (fig. 2 ). 

t is likely that in less than a year or two TTI tools will also be integrated into popular graphics 
programs (such as Photoshop). Anyone will be able to produce images of artifacts indistin- 
guishable from images of works made with traditional techniques; will be able to decide the 


in PRAESENTIA 


<a 


IBRIDI ACCOPPIAMENTI 


CONGIUNTI 


ISOTOPIE 


PROIETTATE 
in ABSENTIA 


representational status of the image (e.g., Moebius cartoon, photorealistic rendering from 
AD magazine, surreal Muller yoghurt advertising, Max Ernst painting...) by simply choosing 
the deep learning training corpus. He will also be able to automatically complete images or 
compositions initially traced by hand: for example, he will have the possibility to automatically 
continue a self-portrait in pen by Rembrandt or — passing to an intermodal dimension of 
patterns — conclude an unfinished Requiem mass by Mozart. 

Finally from the panorama of this incipient democratization of artistic and design techniques, 
we can see that it is precisely through Al-generated images that we can really learn a lot 
about our current visual culture and the way in which visual artifacts of various kinds are 
perceived today In fact, even digital systems for profiling and tracking behavior and personal 
preferences are Al tools that today can be used for non-commercial purposes, but for histor- 
ical-critical, anthropological, ethnographic purposes, to detect and statistically measure the 
emergence of new categories aesthetic and social, of new forms of use. 
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Fig. 3. Reworking of the 
10x10 table in which 
Jaakko Seppälä depicts 

he combinatory between 
he models of ten 
comic book characters 
and the correlative 10 
stylization modalities 

that characterize them. 

In each column there 

are occurrences of the 
same character from the 
comics; in each row are 
the interpretations of the 
10 characters in the style 
of one of the artists. The 
styles of the artists (and 
characters) listed, from 
top to bottom, are: |) 
Albert Uderzo, Astérix; 
2) Bill Watterson, Calvin; 
3) Carl Barks, Donald 
Duck; 4) Hergé, Capitan 
Haddock; 5) Jim Aparo, 
Batman; 6) Pertti Jarla, 
Heimo Vesa; 7) Hugo 
Pratt, Corto Maltese; 8) 
Tove Jansson, Mumin, 9) 
Jim Davis, Garfield; 10) 
Charles Schulz, Lucy. 


Conclusions 


What has been said so far shows that, having at least an elementary (and well-founded) 
idea of the functioning of Al tools for the analysis and generation of visual artifacts, the con- 
scious use of these tools can shed new light on the semiotic functioning of the same visual 
artifacts and — as is of interest to the scientific discipline of drawing — on their possible use 
to conceive or generate other artifacts. 

We have highlighted the functioning of these tools for understanding shapes and styles in 
images in terms analogous to the phenomenological duality present in every visual repre- 
sentation [Spinicci 2008] between two rationes or two dimensions of analysis: the ‘plastic’ 
one (abstract and morphogenetic) and the ‘iconic one’ (figurative or eidogenetic), without 
positing one denotative and the other connotative a priori. 

By trivially exemplifying this duality with the 10x10 matrix in which the Finnish cartoonist 
Jaakko Seppalà (fig. 3) arranges graphic-pictorial versions of ten famous comic book charac- 
ters also declining them in the corresponding ten stylistic formats, we can also imagine the 
way in which an Al it can ‘read’ and ‘invent’ forms: in this case the rows express the ‘plastic’ 
dimension and the columns the ‘iconic’ dimension. 

- By saying that an Al system ‘reads’, we affirm that it correlates at least two different systems 
of forms of the plane of expression, that is, at least two specifics ‘reading grids’ each of which 
has its own plane of content and does so in a way that the same signifying unit is always 
referable to more than two different reading grids of the forms of the plane of expression. 
This is why the deep learning system is able to read even asemic writing, such as that of the 
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Fig. 4. Exercise in icono- 
plastic variations of 
alphabetical characters 
from various fonts: in the 
column, versions of the 
same letter are displayed 
(denotative traits); in 

the row, variations of 
connotative traits of the 
letters are presented, each 
expressed in the visual 
forms of a single other 
letter. Author's graphical 
representation. 


Codex seraphinianus (fig. 4), or an ‘abstract’ painting or film, or a piece of music. ‘Reading’ 
means first of all segmenting an object into significant units — signs and figures within a text 
inscribed in an object — , deciding which expressive features pertain to one or more reading 
grids which identify each time the actual (expressive) forms in play. Even if we want to use the 
term ‘read’ in the strict sense, we should consider the fact that ‘Western alphabetic’ (Latin) 
writing is only one of the many forms of writing dependent on natural languages (fig. 5) and 


as many, still unthinkable, will emerge. 


- By saying that an Al system ‘invents’ images, we affirm that it implements a link that we read 
as a ‘stylistic translation’ in ways similar to those in which Seppala (fig. 3) builds a clear confu- 
sion between different comic worlds, sometimes hybridizing them, sometimes parodying one 
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Fig. 5. Linguistic 
classification of the main 


types of writing systems. 
Sampson 1998, p. 32. 


‘Invention as transduction', especially the ‘(natural and artificial) transduction between repre- 
sentations and between styles of representation’, is a question that we find at the crossroads 
of the contributions of Al to drawing. One of the traditional themes of drawing is the ‘transla- 
tion between forms of visual representation', at least reduced to those minimal terms allowed 
by the ‘restitution of perspective’ (fig. 6): a practice that seeks to geometrically identify the 
deceptive point of view of a perspective to return a 3D model of the space depicted in it. 

In art history there are obvious limits to the application of perspective restitution. Each visual 
artifact for aesthetic use — to be such — maintains an autonomy of the space depicted in it with 
respect to the environmental empirical visual space in which the real spectator is probably 
placed; unless one falls back into the deceptive situations of trompe-loeil and ‘virtual reality’ 
where (pathologically) one cannot distinguish between the perception of one's environment 
[3] from that of the space depicted. The space depicted is an aesthetic product, it is the image 
of a place declined in a ‘non-generic’ morphology. Obviously, it doesn't seem to make sense 
to make perspective restitutions of images registered in pre — and anti-perspective figurative 
traditions. In non-perspective cases, the various parts of the image arouse the sense of places 
differently appointed to show aspects of a space that seems to have a geometrically topolog- 
ical and psychologically topographical nature; but not in all visual cultures and their phases. 
Then the alleged ‘spatial restitution’ can, more honestly, take the form of the documented 
invention of a genealogy of traits of objects and environments of the world known a priori 
to the original spectators. The ‘best spatial model’ would emerge in a top-down process 
(template matching) which maximizes the conditional probability of responding to the a priori 
morphological categories corresponding to the figures recognized in the image. 


Notes 


[1] On the applications of Al to the fields of design we refer especially to Chaillou 2021; Abioye et al. 2021; Castro Pena et al. 
2021; As, Basu 2021; Seo, Park, Choo 2020. 


[2] We are referring to the classic [Groupe u 1992] and to the distinction between the plastic and iconic level of the semiotic 
analysis of images opened with the seminal essay Greimas 1984. 


[3] We are referring to the distinction between ecological perception of the environment and perception of representations 
advocated by J. Gibson [Gibson 1979] whose conclusions we fully accept. 
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Fig. 6. Perspective 
restitution of the 
depicted space of the 


San Zaccaria Altarpiece, 


Madonna and Child 
Enthroned with Saints by 
Giovanni Bellini, 1505, 
(402x273 cm), church 
of San Zaccaria, Venice. 
Graphic elaboration by 
Fabrizio Gay. 
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